#Pensar se a média é realmente representativa
series_a_serem_analisadas = read_csv(here("data/series_from_imdb.csv"),
progress = FALSE) %>%
filter(series_name %in% c("Mad Men", "Sherlock", "The Killing"))
Parsed with column specification:
cols(
series_name = col_character(),
episode = col_character(),
series_ep = col_integer(),
season = col_integer(),
season_ep = col_integer(),
url = col_character(),
user_rating = col_double(),
user_votes = col_double(),
r1 = col_double(),
r2 = col_double(),
r3 = col_double(),
r4 = col_double(),
r5 = col_double(),
r6 = col_double(),
r7 = col_double(),
r8 = col_double(),
r9 = col_double(),
r10 = col_double()
)
medias_imd_por_serie = group_by(series_a_serem_analisadas, series_name) %>%
summarize(media_imdb = mean(user_rating))
Calculamos a média IMDB de cada série fazendo uma média das notas, dadas pelos espectadores, de cada episódio. Essa nota, por sua vez, é calculada fazendo-se uma média ponderada das notas, variando de 1 a 10, e a quantidade de pessoas que votaram. Portanto, podemos suspeitar que nossa média IMDB é representativa, ou seja, a nota da maioria das pessoas está em torno dessa média. Dito isto, temos que, dentre as séries escolhidas, a maior nota é a de Sherlock, aproximadamente 8.9, porém as outras não não estão muito longe disso.
medias_series = plot_ly(medias_imd_por_serie,
x = ~series_name,
y = ~media_imdb,
name = "Média IMDB Séries",
type = "bar",
color = ~series_name) %>%
layout(yaxis = list(title = "Média IMDB"),
xaxis = list(title = "Séries"),
barmode = "group")
medias_series
No entanto, podemos ver que The Killing é a que possui uma distribuição de notas mais homogênea, as pessoas votaram de forma mais parecida, enquanto que a dispersão das notas dos episódios de Mad Men e Sherlock são maiores, tendo uma maior diferença entre os votos de cada pessoa. Sendo Mad Men a que tem uma maior distância entre a menor e maior nota atribuida. Além disso, podemos perceber que a mediana e a média de cada série estão próximas uma da outra, confirmando que a média representa bem o que as pessoas acham dessas três séries.
variacoes_notas = plot_ly(series_a_serem_analisadas,
x = ~series_name,
y = ~user_rating,
type = "box",
color = ~series_name) %>%
layout(yaxis = list(title = "Média IMDB"),
xaxis = list(title = "Série"))
variacoes_notas
No gráfico abaixo, podemos observar dois casos interessantes. O público parece não ter gostado muito da última temporada de Sherlock, pois a avaliação da quarta temporada caiu 0.625 em relação a terceira, e é a nota mais baixa atribuída à série. Já The Killing, por mais estranho que pareça, principalmente para quem viu a nota da série no Rotten Tomatoes, parece agradar cada vez mais ao público, mostrando um gráfico sempre crescente. Com relação a Mad Men, as notas não variam muito sempre maior que 8 e menor que 9. Contudo, vemos que a quinta e sexta temporada não são as favoritas.
media_por_temporada = aggregate(series_a_serem_analisadas$user_rating,
by = list(series_name = series_a_serem_analisadas$series_name,
season = series_a_serem_analisadas$season),
mean)
colnames(media_por_temporada)[3] <- "season_mean"
media_temporada = plot_ly(media_por_temporada,
x = ~season,
y = ~season_mean,
color = ~series_name,
type = "scatter",
mode = "lines") %>%
layout(yaxis = list(title = "IMDB da Temporada"),
xaxis = list(title = "Temporada"))
media_temporada